如何剔除数据中的异常值? |
您所在的位置:网站首页 › excel 箱线图 › 如何剔除数据中的异常值? |
什么是异常值?异常值出现的原因异常值危害异常值检测方法异常值解决办法什么是异常值? 所谓异常值,也称离群值,一般是指在所获统计数据中相对误差较大的观测数据,比如与平均值的偏差超过两倍标准差的观测数据。 异常值出现的原因主要体现在以下几点:抽样的误差或者选取数据进行分析时存在问题;人为的记录或者人为的谎报等的数据比如‘测量男生的身高’搜集的数据非正常人的身高,如10m等。 异常值的检测是十分必要的,否则异常值的存在可能对分析结果存在“危害”。接下来说明异常值可能存在的危害。 异常值危害如果数据中存在可能的异常值,均应在分析之前处理,防止异常值带来的干扰。 (1)异常值的存在可能会导致数据分布和真实分布差别很大。 (2)如果异常值在数据中影响较大,可能会影响数据集的均值和标准差,从而在数据分析中可能会带来错误的结果,比如t检验等。 (3)对于SPSSAU中的回归、聚类、机器学习中KNN等,如果数据存在异常值可能会导致结果有很大偏差。 异常值检测方法一般异常值的检测方法有基于统计的方法,可视化方法以及直观观察等。 描述分析 异常值为一般与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。 利用SPSSAU描述分析可以得到数据的基础指标,比如最小值,最大值以及平均值等,根据最小值和最大值可以判断数据中是否存在异常值,并且进行处理。此方法的缺点是不能精准的查到异常值,所以常常用于初步判断。 可视化方法 利用图形方法进行查看数据中是否存在异常值,其中可以利用散点图或者箱线图。 散点图 横坐标为自变量,纵坐标为因变量,通过散点图可以大致看出异常值点,为红色框内的数据。该办法能够大致看出异常值,但是主观性较强,如果想要大致查看异常值情况,可以使用该方法。 箱线图 从箱线图可以看看出,此份数据中存在异常值,具体异常值查看SPSSAU提供的异常值汇总表格,其中此份数据的异常值共有6个,具体异常值的数字都是1。相比较其它方法箱线图更为直观,以及方法更加严谨。 直观观察 直观的看到离群值,比如一组数据大于都是在10附近,但是在数据中直观查看到有两个值大于1000或者为负数等,但是这种方法只适用于小样本数据(小于50)个。 SPSSAU异常值解决办法异常值的判定没有固定标准,有时数据的异常值可能也存在有用的信息,是否需要剔除,应由分析人员自行判断。如果想要处理异常值一般有以下三种方法,将异常值设为null、填补法以及插值法。 如果异常值相对于数据不多可以直接将异常值设为null值。或者将异常值处理为null值后将异常值作为缺失值进行处理。SPSSAU有提供“填补法”和“插值法”,其中填补法包含平均值、中位数、众数、随机数、数字0以及自定义函数等。目前平均值比较常用,插值法针对的确缺失数据,插值法共有两种一个是线性插值一个是该点线性趋势插值。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |